A multi-level multimedia concordancer for spoken language corpora (Un concordancier multi-niveaux et multimédia pour des corpus oraux) [in French]
نویسندگان
چکیده
Concordances have always played an important role in the analysis of language corpora, for studies in humanities, literature, linguistics, translation and language teaching. However, very few of the available systems support multi-level queries against a richly-annotated, sound-aligned spoken corpus. The rapid growth in the development of spoken corpora, particularly for French, increases the need for scalable, high-performance solutions. We present the preliminary results of our project to develop a multi-level multimedia concordancer for spoken language corpora. We test our prototype on the PFC corpus of spoken French (1.5 million tokens, transcriptions aligned to the utterance level). Our tool allows researchers to query the corpus and produce concordances correlating several annotation levels (part-of-speech tags, lemmas, annotation of phonological phenomena such as the liaison and schwa, etc.) while allowing for multi-modal access to the associated sound recordings and other data. Mots-clés : concordancier, annotation multi-niveaux, linguistique de corpus, didactique du FLE
منابع مشابه
ROCme! : logiciel pour l'enregistrement et la gestion de corpus oraux (ROCme!: software for the recording and management of oral corpora) [in French]
RÉSUMÉ ____________________________________________________________________________________________________________ ROCme! permet une gestion rationalisée, autonome et dématérialisée de l’enregistrement de corpus oraux. Il dispose notamment d’une interface pour le recueil de métadonnées sur les locuteurs totalement paramétrable via des balises XML. Les locuteurs peuvent gérer les réponses au q...
متن کاملDetection and Analysis of Paraphrastic Reformulations in Spoken Corpora (Repérage et analyse de la reformulation paraphrastique dans les corpus oraux) [in French]
Our work addresses the automatic detection of paraphrastic rephrasing in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. Manual annotation performed by two annotators provides fine-grained and multi-dimensional description of the reference data. Automatic method is proposed in order to decide wheth...
متن کاملMOKA, modélisation et planification de capacité pour les systèmes multi-étagés
Bien que les hébergeurs d’applications multi-étagées basées sur grappe de machines permettent de passer à l’échelle les applications Web, leur configuration ad-hoc pose des problèmes en terme de performance et de coût de fonctionnement pour les applications. Cet article présente la conception et l’implémentation de MoKa, un canevas logiciel pour la modélisation, la gestion de ressources et la c...
متن کاملNon-linear recursive grammar for Sign languages (Grammaire récursive non linéaire pour les langues des signes) [in French]
Résumé. Cet article propose une approche pour la formalisation de grammaires pour les langues des signes, rendant compte de leurs particularités linguistiques. Comparable aux grammaires génératives en termes de récursivité productive, le système présente des propriétés nouvelles comme la multi-linéarité permettant la spécification simultanée des articulateurs. Basé sur l’analyse des liens entre...
متن کاملÉvaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo
Les méthodes multi-apprenants avec sous-échantillonnage aléatoire inversé (IRUS) ont étét introduites par (Tahir et al., 2009). Ces approches ont été validées avec succès pour l’indexation multimédia mais avec un seul type de classifieur, la régréssion logistique, et un seul descripteur de type histogramme de SIFT. Dans ce travail, nous étudions cette approche avec d’autres types de classifieur...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2014